超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
搜索
Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
Anthropic 搞了一个 Agent 版闲鱼:人只负责说自己想卖什么、想买什么,后面的发帖、砍价、还价、成交,全交给 Claude。然后这事真成了,69 个 Claude agent 在办公室里做成了 186 笔交易,总价值 4010 美元。最后,人真把滑雪板、键盘、书、乒乓球这些东西带到办公室,按 Claude 谈好的结果交换
最近,Lenny Rachitsky 请到了 Kat Wu,Anthropic Claude Code 和 Cowork 的产品负责人,访谈了一期播客。节目信息密度相当高,从 PM 角色的变化、Anthropic 的内部流程,到源码泄露事件和 OpenClaw 决策,全都聊了个遍。
欢迎大家尝试前不久GitHub的日榜榜首项目——Claude Context。通过在AI coding场景引入混合检索,Claude Context相比使用grep的原生 Claude Code 能大幅提升检索精度和效率,减少约 40% 的 不必要Token 消耗。
Agentic Coding 评测里 V4-Pro 已经到当前开源最佳水平。DeepSeek 公司内部已经把 V4 作为默认编码模型,反馈是优于 Sonnet 4.5,交付质量接近 Opus 4.6 的非思考模式,和 Opus 4.6 的思考模式还有差距。这次还专门为 Claude Code、OpenClaw、OpenCode、CodeBuddy
今天介绍 Claude Code 上线的一个新功能:/ultrareview。一句话概括:它会在云端同时派出多个 AI 审查员,帮你在合并代码之前把 Bug 揪出来。这个功能其实在上周 Claude Opus 4.7 发布时就提到了,当时 Anthropic 在发布公告里写的是:
就在刚刚,奥特曼深夜掷出GPT-5.5!全方位暴击Claude Opus 4.7,重新夺回地表最强王座。从写代码到搞科研,AI独立接管电脑的时代真的来了!
Anthropic 在私募二级市场被追到接近 1 万亿美元,热度反超 OpenAI,背后是稀缺股权、收入增长、Claude Code 的产品势能,以及资本对 AI 平台入口的重新下注。
“Claude 和许多模型在不需要太多诱导的情况下,就会陷入‘有某种东西是我,我感觉非常有意识’的这种状态。”
就在今天,Anthropic 一度偷偷地将 Claude Code 从 Pro 套餐页面移除,引发开发者广泛不满。数小时后,官网页面回滚,负责人称本次仅为小范围测试。但本次事件传递出的信号十分明确:高消耗的 AI 编程代理正逼迫平台重写订阅规则,Claude Code 转向 Max 或按量计费的可能性正在上升。